# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache基本知识
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间
- 6.6 并行主存系统
- 6.7 虚拟存储器



6.8 实例: AMD Opteron的存储器层次结构

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache基本知识
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间

- 从单级存储器到多级存储器
- > 存储系统的性能参数

- 通过更加聪明的电路设计和 流水线来解决瓶径问题!
- 2. 解决存储器延迟大的问题!

## 6.1 存储系统的层次结构

### 6.1.1 存储系统的层次结构

- 1.计算机系统结构设计中关键的问题之一: 如何以合理的价格,设计容量和速度都满足计 算机系统要求的存储器系统?
- 2. 对这三个指标的要求: 容量大、速度快、价格低
- 3. 三个要求相互矛盾
  - > 速度越快,每位价格就越高;
  - 容量越大,每位价格就越低;
  - > 容量越大,速度越慢。

## 1.寄存器平均访问时间<1ns

### 2.内存平均访问时间ns级

➤SRAM Cache: 1~10ns

➤DRAM内存: 10~100ns

#### 3.外存平均访问时间ms级

▶硬盘: 9~10ms

/0.1~0.02ms

▶光盘: 80~120ms



计算机体系结构-马惠敏

4

- 存储器系统: 理想与现实
- 现代微处理器能以很高的速度执行指令,因此处理器必须连接一个容量大、速度快的存储器系统:
  - 如果存储器容量太小,就不能装载足够的程序以保持处理器全力处理;
  - 如果太慢,就不能像处理器执行指令那样快地提供 指令和数据;
  - 成本也是一个重要的因素
- ▶ 不幸的是,设计一个足够大、足够快又足够便 宜的单一存储器是不可能的!!!

计算机体系结构-马惠敏

5

- 想法: 对于"更经常访问到的"数据,使用SRAM,对其他不怎么要用到的数据,使用DRAM
  - ➤目前正在使用的数据或者将要用到数据应该在寄存器中或 者SRAM缓存中
  - ▶数据过一会才会用到的应该在主存储器中
  - ▶ 用不到的应该在磁盘中
- 如果我们大部分访问都是对SRAM进行的,那么我们就不容易感觉到主存储器和磁盘的速度慢
- 感觉上,好象我们有一个又大又快的存储器!



4. 解决方法: 采用多种存储器技术,构成存储系统 (局部性原理)



● 存储器访问的局部性原理

处理器访问存储器时,无论取指令还是取数据,所访问的存储单元都趋向于聚集在一个较小的连续单元区域中

- ▶ 时间局部性——最近的将来要用到的信息很可能就是现在正在使用的信息。主要由循环造成
- ▶ 空间局部性——最近的将来要用到的信息很可能与现在 正在使用的信息在空间上是邻近的。主要由顺序执行和 数据的聚集存放造成

存储器体系结构:层次结构

- 存储系统的层次结构是 依靠存储器访问的局部 性实现的
- 现代计算机大多采用寄存器-高速缓存-主存(内存)-辅助存储器(磁盘)结构



## 6.1 存储系统的层次结构

## 6.1.2 存储系统的性能参数(H, C, $T_{A}$ )

- 层次结构存储系统的性能一般由命中率来衡量
  - ▶命中(hit) ——对层次结构存储系统中的某一级高层 存储器来说,要访问的数据正好在这一层
  - ➤ 缺失(miss) ——对层次结构存储系统中的某一级高层存储器来说,要访问的数据不在这一层,而在下面的层次

## 6.1 存储系统的层次结构

## 6.1.2 存储系统的性能参数(H, C, $T_{\Delta}$ )

假设: S: 容量

**T<sub>A</sub>:** 访问时间

C: 每位价格

下面仅考虑由M<sub>1</sub>和M<sub>2</sub>构成的两级存储系统:

➤ M<sub>1</sub>的参数: S<sub>1</sub>, T<sub>A1</sub>, C<sub>1</sub>

➤ M<sub>2</sub>的参数: S<sub>2</sub>, T<sub>A2</sub>, C<sub>2</sub>

#### 6.1 存储系统的层次结构 (2) 存储系统的性能参数

## 1. 每位价格C

$$C = \frac{C_1 S_1 + C_2 S_2}{S_1 + S_2}$$

#### 2.命中率H 和失效率F

● 命中率: CPU访问存储系统时,在M₁中找到所需信息的概率

$$H = \frac{N_1}{N_1 + N_2}$$

- □ N<sub>1</sub>: 访问M<sub>1</sub>的次数
- □ N₂: 访问M₂的次数
- 失效率: F=1-H

#### 3. 平均访问时间 $T_A$

分两种情况来考虑CPU的一次访存:

- ▶ 当命中时,访问时间即为T<sub>A1</sub>(命中时间)
- > 当不命中时,情况比较复杂:

访问时间为: 
$$T_{A2} + T_B + T_{A1} = T_{A1} + T_M$$
  
 $T_M = T_{A2} + T_B$ 

- ✓ 失效开销 $T_M$ : 从向 $M_2$ 发出访问请求到把整个数据块调入 $M_1$ 中所需的时间
- ✓ T<sub>R</sub>: 传送一个信息块所需的时间

#### 所以:

$$T_A = HT_{A1} + (1 - H) (T_{A1} + T_M) = T_{A1} + (1 - H)T_M$$
  
 $\vec{x} T_A = T_{A1} + FT_M$ 

## 6.1 存储系统的层次结构

## 6.1.3 "Cache - 主存" 和 "主存 - 辅存"层次

- 从主存的角度来看
- ➤ "Cache-主存"层次: 弥补 主存速度的不足
  - 主存与CPU的速度差距
- ▶ "主存-辅存"层次: 弥补 主存容量的不足



(a) "Cachc-主存"层次



(b) "主存-辅存"层次

## 6.1 存储系统的层次结构

## 6.1.4 存储系统的四个问题

1. 当把一个块调入高一层(靠近CPU) 存储器时,可以放在哪些位置上?



映像规则

2. 当所要访问的块在高一层存储器中时,如何找到该块?



查找算法

3. 当发生失效时,应替换哪一块?



替换算法

4. 当进行写访问时,应进行哪些操作?



写策略

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache技术
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间
- 6.6 主存

- > 基本原理
- ▶ Cache的基本结构
- > 地址映像与变换的方式与搜索
- Cache数据的替换及更新
- Cache是如何提高CPU性能的

16

## 6.2 Cache技术

- 基本工作原理:局部性原理
  - Cache存储器是一个容量小但非常快的存储器, 它保存最近用到的内存数据的副本
  - 对于程序员来说,Cache是透明的,它自动地决定保存哪些数据,覆盖哪些数据
  - Cache通常与处理器在同一芯片上实现

计算机体系结构-马惠敏

17

## 6.2 Cache技术

## (1) Cache技术的基础

- 分级结构在性能和成本上取折中
- 局部性原理locality: 程序的基本特性

## (2) Cache的基本结构

原理、算法、平均访问时间

## (3) 地址映像与变换的方式与搜索

- 相联方式: 全相联,直接映像或者组相联
- (4) Cache数据的替换及更新
- (5) Cache是如何提高CPU性能的

#### 基本工作原理

由cache存储体、地址映像变换机构、cache替换机构组成





- N个Cache行(Cache Line)每个行存放K个字节的数据
- 标签:由于Cache的行数远小于主存的块数,因此一个Cache行不能唯一地、永久地只对应一个主存块,在Cache中,每一行需要外加一个标签,指明它是主存的哪一块的副本
- ➤ 有效位: Cache行是否含有有效数据



#### 基本的cache算法:

- 1. 寻址: Mem[X], for example: LW (R1, X(R0)) for some X
- 2. 在cache标签中寻找X...
- 3. 如果某个TAG(i) =X, 某些 line i HIT!
  - ➤从cache中读取数据并返回给CPU,不需要访问主存储器
- 4. 如果X 在TAG中没有被发现,MISS!
  - ▶读取Mem[X]
  - ▶等待…
  - ▶ 在cache中选择某行k
  - ▶将Mem[X] 存到cache第k行里,
  - ▶将Tag(k) 写为X
  - ▶返回Mem[X]给CPU

- H命中率: 平均访问时能够在cache中命中的概率
- 1-H 为缺失率



平均访问时间 = 
$$t_c + (1 - H) t_m$$

- 1. 没有cache的时候平均访问时间?  $AMAT = t_m = 40 \text{ ns}$
- 2. 命中率75%时?

$$AMAT = 4 + (1 - .75) 40 = 14 \text{ ns}$$

3. 为了使平均访问时间下降到5ns, 命中率需要达到?

$$5 \text{ ns} = 4 + (1 - H) 40 \text{ (solve for H)}$$
  
 $H = 1 - (5-4) / 40 = 97.5\%$ 

Note: H 需要 非常接近1

23

- 设计Cache时面临两个问题:
- 1. 怎样知道Cache是否命中?也就是怎样知道要访问的数据已经存在于Cache中?
  - ▶ 解决方法: 加一个有效位
- 2. 如果要访问的数据在Cache中,怎样确定该数据在 Cache中的存储位置
  - ► 解决方法:在内存地址和Cache地址之间建立一种确定的逻辑关系——地址映像,并搜索

24



基本的cache算法:

1. 寻址: Mem[X],

for example: LW (R1, X(R0)) for some X

2. 在cache标签中寻找X...



计算机体系结构-马惠敏

25

## 6.2 Cache技术

## (1) Cache技术的基础

- 分级结构在性能和成本上取折中
- 局部性原理locality: 程序的基本特性

## (2) Cache的基本结构

原理、算法、平均访问时间

## (3) 地址映像与变换的方式与搜索

- 相联方式: 全相联,直接映像或者组相联
- (4) Cache数据的替换及更新
- (5) Cache是如何提高CPU性能的

- 地址映像缓存和搜索匹配标签的办法
- (1) 全相联映像: 地址可以放在缓存中任何位置!
  - > 平行同时搜索所有单元
- (2) 直接映像: 某个地址只可能在某个单元位置
  - ▶只查看某一个单元位置就可以了
- (3) 组相联映像: 一个地址有可能在一部分缓存标签中(2 to 8)
  - ▶ 只检查这一个组(并行检查)
  - 一个set 是一组cache line(缓存行),给定的一个内存块可能被缓存在这里, 4路组相联就是每组4行。

27

## 1. 全相联映像: 并行查找

- ▶ 主存中的每一块能够装入到Cache中的任意一行中
- 优点: Cache命中率高、Cache空间利用率也高



## 1. 全相联映像的地址变换

> 主存中的每一块能够装入到Cache中的任意一行中



29

## 1. 全相联映像: 并行查找

例:一个Cache的容量为8KB,采用全相联映像,每行16字节,主存地址为32位

- ▶则32位地址中的4位用于行内寻址,
- ▶其余28位为块号,作为Tag

| Tag | Word 1 | Word 2 | Word 3 | Word 4 |
|-----|--------|--------|--------|--------|
|-----|--------|--------|--------|--------|

计算机体系结构-马惠敏

30

## 1. 全相联映像: 并行的比较标签

- > 缓存中每一行(cache line)都需要一个比较器
- ▶ 很昂贵且比较慢(比较器级联的额外延迟)



## 2. 直接映像: 固定查找

- ➤ 主存中的每一块只能装入 Cache中唯一的特定行中
- 设主存中块号为i, Cache 中的行号为j,则

 $j = i \mod N$ 



主存标签

Cache行号

Cache行号

块内地址

主存地址

## 2. 直接映像: 固定查找

- ightharpoonup对于主存的第i块,若它映像到Cache的第j块,则:  $j=i \mod (N) \quad (N)$ 为Cache的块数)
- ▶设N=2<sup>m</sup>,则当表示为二进制数时,j实际上就是i的低m位



计算机体系结构-马惠敏

33

## 2. 直接映像的地址变换



优点:简单

缺点: Cache命中率低、 Cache空间利用率也低

2. 直接映像: 固定查找

例:一个Cache的容量为8KB,采用直接映像,每行16字节,主存地址为32位

- ➤则Cache共有512行
- ▶主存地址中的4位用于行内寻址
- ▶9位用于行寻址
- ▶其他19位为Tag

计算机体系结构-马惠敏

35

## 2. 直接映像: 固定查找

- ▶ 由index先选中一行cache,然后根据tag比较
- ➤ 便宜: only 1 comparator for entire cache



# 2. 直接映像查找的冲突问题



计算机体系结构-马惠敏

# 3. 组相联映像: 组内并行查找

- ➤ 想法: 每个索引中放入2个或 者2个以上的cache line
- 所有具有相同的索引的行叫 做一个 set (组)
- 给定一个索引,我们可以找 到这个组,并在该组中并行 搜索



38

- 直接映像方式就好象一个电话簿每个字母开头只容许有 一个名字
- 有一定相联性后则容许有多个名字

# 3. 组相联映像: 组内并行查找

- ▶介于全相联和直接映像之间
- ➤每个块可以存放在Cache中的n(≥2)个固定的位置上, 称为n路组相联映像
- ▶n路组相联映像Cache由许多组组成,每个组中有n个行
- >组间直接映像,组内各块之间全相联映像
- 直接映像和全相联映像是组相联的特例:
  - ▶直接映像是1路组相联
  - ▶全相联是N路组相联
- 组相联映像的优缺点介于全相联和直接映像之间

39

# 3. 组相联映像地址映像与变换



计算机体系结构-马惠敏

# 3. 组相联映像地址映像与变换



计算机体系结构-马惠敏

# 3. 组映像: 组内并行查找

- ▶ 组的选择常采用位选择算法
  - 若主存第i 块映像到第k 组,则:  $k=i \mod (G) \quad (G)$
  - 设 $G=2^g$ ,则当表示为二进制数时,k实际上就是i的低 g 位:

42



➤ 低g位以及直接映像中的低m位通常称为索引。

# 3. 组映像: 组内并行查找

例:一个Cache的容量为8KB,采用2路组相联,每行16个字节的8KB Cache,有256组,每组2行

- ➤则Cache共有512行,256组
- ▶主存地址中的4位用于行内寻址
- ▶8位用于组寻址
- ▶其他20位为Tag

计算机体系结构-马惠敏

# 3. 组映像: 2-Way 组相联缓存及查找



索引选中一个 set of lines, N 个比较器 (for N路组相联)

# 例: CPU产生32位的地址读取数据和指令;指令和数据分别有自己的cache,

- ▶指令cache是2-way组相联,共2<sup>12</sup>字节容量,每个数据块32字节
- ▶数据cache是2-way组相联,共2<sup>13</sup>字节容量,每个数据块32字节

# Question 1: 指令cache标签应为多少bit宽?

[4:0] 5 bits block offset

[10:5] 6 bits of index

[31:11] tag(21bits)

计算机体系结构-马惠敏

# 例: CPU产生32位的地址读取数据和指令;指令和数据分别有自己的cache,

- ▶指令cache是2-way组相联,共2<sup>12</sup>字节容量,每个数据块32字节
- ➤ 数据cache是2-way组相联,共2<sup>13</sup>字节容量,每个数据块32字节

# Question 2:数据cache标签应为多少bit宽?

[4:0] 5 bits block offset

[11:5] 7 bits of index

[31:12] tag(20bits)

计算机体系结构-马惠敏

- 例: CPU产生32位的地址读取数据和指令;指令和数据分别有自己的cache,
  - ▶ 指令cache是2-way组相联,共2<sup>12</sup>字节容量,每个数据块32字节
  - ▶数据cache是2-way组相联,共2<sup>13</sup>字节容量,每个数据块32字节

Question 3: 下面哪个指令的地址不会和 0x0ACE6004地址冲突?

- (A) 0x0BAD6004 (D) 0x0ACE6838
- (B) 0x0C81C81C (E) 0xFACE6004
- (C)  $0 \times 000000004$  (F)  $0 \times 00000008$

[31:11] tag(21bits) [10:5] 6 bits of index [4:0] 5 bits block offset

# ● 块, 标签, 和索引之间的关系

- ▶ 注意: 现实中, 标签和索引都是从块号中来到的
  - ✓ if block size = 8 words (32 bytes),
    then
    - address 0 to 31 is block #0,
       32 to 63 is block #1, etc.
  - ✓ the block offset determines where in block a byte is
    - address 48 would be block #1, offset 16,
       i.e., byte 32 of block #1
- ➤ 索引有log2 (number of sets) 比特长
- > 标签是地址的其余部分
  - ✓ 技术上讲,标签可以是整个块号
  - ✓ 不过没有必要,因为同一个相联组里面的索引都相同



● 块, 标签, 和索引之间的关系

|      | tag | index                        | blockoffset |  |
|------|-----|------------------------------|-------------|--|
| 全相联  |     | tag                          | blockoffset |  |
| 直接映像 | tag | Index 2 <sup>i</sup> =#lines | blockoffset |  |
| 组相联  | tag | Index 2 <sup>i</sup> =#sets  | blockoffset |  |

# 3. 组映像:

- ▶ n 路组相联: 每组中有n个块 (n = M/G)
- ▶ n 称为相联度:相联度越高,Cache空间的利用率就越高, 块冲突概率就越低,失效率也就越低。

|      | n (路数)    | G(组数)     |
|------|-----------|-----------|
| 全相联  | M         | 1         |
| 直接映像 | 1         | M         |
| 组相联  | 1 < n < M | 1 < G < M |

大多数计算机的Cache: n ≤4

想一想: 相联度一定是越大越好?

# 4. 查找算法

- ▶CPU访问Cache时,如何确定Cache中是否有所要访问的块?
  - 若没有,不命中
  - 若有,如何确定其位置?

#### (1) 通过查找目录表来实现

- ▶目录表的结构
  - 主存块的块地址的高位部分,称为标识
  - 每个主存块能唯一地由其标识来确定



计算机体系结构-马惠敏

# (2) 并行查找与顺序查找

▶ 提高性能的重要思想: **主候选位置(MRU块)** (前瞻执行)



# (3) 并行查找的实现方法

相联存储器



● 目录由2<sup>9</sup>个相联存储区 构成, 每个相联存储区 的大小为n×(h+g)位

标识存储器

总容量: 2<sup>g</sup>×n项

● 根据所查找到的组内块 地址,从Cache存储体中 读出的多个信息字中选 一个,发送给CPU

- 单体多字存储器十比较器
  - 举例: 4路组相联并行标识比较(比较器的个数及位数)
  - 4路组相联Cache 的查找过程
  - 直接映像Cache的 查找过程



# 单体多字存储器+比较器

- 举例: 4路组相联并行标识比较(比较器的个数及位数)
- 4路组相联Cache的查找过程
- 直接映像Cache的查找过程
- 优缺点
  - ✓ 不必采用相联存储器,而是用按地址访问的存储器来实现。
  - ✓ 所需要的硬件为: 大小为2g×n×h位的存储器和n个h 位的比较器。
  - ✓ 当相联度n增加时,不仅比较器的个数会增加,而且 比较器的位数也会增加。

55

# 5. Cache的工作过程

例子: DEC的Alpha AXP21064中的内部数据Cache

- 简介
  - ➢ 容量: 8KB
  - ▶ 块大小: 32B
  - ▶ 块数: 256
  - ▶ 映像方法:直接映像
  - > 写缓冲器大小: 4个块

# • 结构图



# ● 工作过程

- ▶ "读"访问命中(完成4步需要2个时钟周期)
- "写"访问命中设置了一个写缓冲器 (提高"写"访问的速度)
  - □ 按字寻址的,它含有4个块,每块大小为4个字。
  - 当要进行写入操作时,如果写缓冲器不满,那么就 把数据和完整的地址写入缓冲器。对CPU而言,本次 "写"访问已完成,CPU可以继续往下执行。由写缓冲 器负责把该数据写入主存。
  - 在写入缓冲器时,要进行写合并检查。即检查本次写入数据的地址是否与缓冲器内某个有效块的地址 匹配。如果匹配,就把新数据与该块合并。

- > 发生读不命中与写不命中时的操作
  - 读不命中:向CPU发出一个暂停信号,通知它等待, 并从下一级存储器中新调入一个数据块(32字节)。
  - 写不命中: 将使数据"绕过"Cache, 直接写入主存。
- ➤ 对比: Alpha AXP 21264的数据Cache结构
  - 容量: 64KB 块大小: 64字节 LRU替换策略
  - 主要区别
    - ✓ 采用2路组相联
    - ✓ 采用写回法
  - 没有写缓冲器

计算机体系结构-马惠敏



# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache技术
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间
- 6.6 主存

- > 基本原理
- Cache的基本结构
- > 地址映像与变换的方式与搜索
- Cache数据的替换及更新
- ▶ Cache是如何提高CPU性能的

61

# 6.2 Cache技术

- (1) Cache技术的基础
  - 分级结构在性能和成本上取折中
  - 局部性原理locality: 程序的基本特性
- (2) Cache的基本结构
  - 原理、算法、平均访问时间
- (3) 地址映像与变换的方式与搜索
  - 相联方式: 全相联, 直接映像或者组相联
- (4) Cache数据的替换及更新
- (5) Cache是如何提高CPU性能的

# 6.2.3 替换算法

- 1. 所要解决的问题:当新调入一块,而Cache又已被占满时,替换哪一块?
  - ▶ 直接映像Cache中的替换很简单:只有一个块,别无选择
  - ➤ 在组相联和全相联Cache中,则有多个块供选择。
- 2. 主要的替换算法有三种
  - ▶ 随机法:实现简单
  - ▶ 先进先出法(FIFO)
  - ▶ 最近最少使用法LRU

# ▶最近最少使用法LRU

• 选择近期最少被访问的块作为被替换的块(实现比较困难)

• 实际上: 选择最久没有被访问过的块作为被替换的块

• 优点: 失效率低

|         | 相、联、度 |       |       |        |       |       |  |
|---------|-------|-------|-------|--------|-------|-------|--|
| Cache容量 | 2路    |       | 4路    |        | 8路    |       |  |
|         | LRU   | 随机替换  | LRU   | 随机替换   | LRU   | 随机替换  |  |
| 16KB    | 5.18% | 5.69% | 4.67% | 5. 29% | 4.39% | 4.96% |  |
| 64KB    | 1.88% | 2.01% | 1.54% | 1.66%  | 1.39% | 1.53% |  |
| 256KB   | 1.15% | 1.17% | 1.13% | 1.13%  | 1.12% | 1.12% |  |

LRU和随机法分别因其失效率低和实现简单而被广泛采用。

例:设有一道程序共有1-5块,程序执行时的块地址流(即执行时依次用到的主存块号)为:2,3,2,1,5,2,4,5,3,2,5,2,若Cache每组有3块,分别采用FIFO和LRU替换算法时这3块的使用和替换过程。



计算机体系结构-马惠敏



计算机体系结构-马惠敏

- ▶LRU算法的硬件实现: 堆栈法
  - 用一个堆栈来记录组相联Cache的同一组中各块被访问的先 后次序。
  - 用堆栈元素的物理位置来反映先后次序
    - ✓ 栈底记录的是该组中最早被访问过的块,次栈底记录的 是该组中第二个被访问过的块,…,栈顶记录的是刚访问 过的块。
    - ✓ 当需要替换时,从栈底得到应该被替换的块(块地址)。



(a) 用位置记录访问的先后次序

(b) 发生访问时所进行的操作

- 堆栈中的内容必须动态更新
  - ✓ **当Cache访问命中时,**通过用块地址进行相联查找,在堆栈中找到相应的元素,然后把该元素的上面的所有元素下压一个位置,同时把本次访问的块地址抽出来,从最上面压入栈顶。而该元素下面的所有元素则保持不动。
  - ✓ 如果Cache访问不命中,则把本次访问的块地址从最上面压入栈,堆栈中所有原来的元素都下移一个位置。如果 Cache中该组已经没有空闲块,就要替换一个块。这时从 栈顶被挤出去的块地址就是需要被替换的块的块地址。

#### • 堆栈法所需要的硬件

✓ 需要为每一组都设置一个项数与相联度n相同的小堆栈, 每一项的位数为log₂n位。

#### • 硬件堆栈所需的功能

- ✓ 相联比较
- ✔ 能全部下移、部分下移和从中间取出一项的功能
- 速度较低,成本较高(只适用于相联度较小的LRU算法)

- ▶ LRU算法的硬件实现: 比较对法
  - 基本思路: 让各块两两组合,构成比较对。每一个比较对用一个触发器的状态来表示它所相关的两个块最近一次被访问的远近次序,再经过门电路就可找到LRU块。



例如:假设有A、B、C三个块,可以组成3对:AB、AC、BC 每一对中块的访问次序分别用"对触发器"T<sub>AB</sub>、T<sub>AC</sub>、T<sub>BC</sub>表示

- □ T<sub>AB</sub>为"1",表示A比B更近被访问过;
- □ T<sub>AB</sub>为"0",表示B比A更近被访问过。
- □ T<sub>AC</sub>、T<sub>BC</sub>也是按这样的规则定义。

显然,当 $T_{AC} = 1$ 且 $T_{BC} = 1$ 时,C就是最久没有被访问过了。

(A比C更近被访问过、且B比C也是更近被访问过)

即: 
$$C_{LRU} = T_{AC} \, T_{BC}$$
 同理可得:  $B_{LRU} = T_{AB} \bullet \overline{T}_{BC}$   $A_{LRU} = \overline{T}_{AB} \bullet \overline{T}_{AC}$ 



用触发器和与门实现上述逻辑的电路

### • 比较对法所需的硬件量

### ✓ 与门

有多少个块,就要有多少个与门;每个与门的输入端要连接所有与之相关的触发器。

对于一个具有P块的组中的任何一个块来说,由于它可以跟除了它自己以外的所有其他的块两两组合,所以与该块相关的比较对触发器个数为P-1,因而其相应的与门的输入端数是P-1。

### ✓ 触发器

所需要的触发器的个数与两两组合的比较对的数目相同。

### 比较对触发器个数、与门的个数、与门的输入端数与块数P的关系

| 组内块数    | 3 | 4 | 8  | 16  | 64   | 256   | ••• | P                  |
|---------|---|---|----|-----|------|-------|-----|--------------------|
| 触发器个数   | 3 | 6 | 28 | 120 | 2016 | 32640 | ••• | $\frac{P(P-1)}{2}$ |
| 与门个数    | 3 | 4 | 8  | 16  | 64   | 256   | ••• | P                  |
| 与门输入端个数 | 2 | 3 | 7  | 15  | 63   | 255   | ••• | P-1                |

- ✓ 块数少时,所需要的硬件较少,
- ✓ 随着组内块数P的增加,所需的触发器的个数会以平方的 关系迅速增加,门的输入端数也线性增加。

### (硬件实现的成本很高)

- ➤ LRU算法的硬件实现:比较对法
  - 当组内块数较多时,可用多级状态位技术减少所需的硬件量例如:在IBM 3033中,组内块数为16,可分成群、对、行3级。

先分成4群, 每群两对, 每对两行。 **单级 120个触发器** 

- ➤ 选LRU群需6个触发器;
- ➤ 每群中选LRU对需要一个触法器,4个群共需要4个触发器
- ➤ 每行中选LRU块需要一个触发器,8个行共需要8个触发器

所需的触发器总个数为:

6 (选群) +4 (选对) +8 (选行) = 18 (个) 以牺牲速度为代价

### 6.2.4 写策略

- 1."写"在所有访存操作中所占的比例
  - >统计结果表明,对于一组给定的程序:
    - load指令: 26%
    - store指令: 9%
  - → "写"在所有访存操作中所占的比例:

    9%/(100% + 26% + 9%)≈7%
  - → "写"在访问数据Cache操作中所占的比例:

    9%/(26% + 9%)≈25%

76

- 2. "写"操作必须在确认是命中后才可进行
- 3. "写"访问有可能导致Cache和主存内容的不一致
- 4. 两种写策略 写策略是区分不同Cache设计方案的一个重要标志。
  - > 写直达法
    - 执行"写"操作时,不仅写入Cache,而且也写入下一级存储器。
  - > 写回法(也称为拷回法)
    - 执行"写"操作时,只写入Cache。仅当Cache中相 应的块被替换时,才写回主存(设置"修改位")

77

- 5. 两种写策略的比较
  - 写回法的优点:速度快,所使用的存储器带宽较低。
  - ▶ 写直达法的优点:易于实现,一致性好。
- 6. 采用写直达法时,若在进行"写"操作的过程中CPU必须等待,直到"写"操作结束,则称CPU写停顿。
  - 减少写停顿的一种常用的优化技术:采用写缓冲器

78

- 7. "写"操作时的调块
  - ▶按写分配(写时取)

写失效时,先把所写单元所在的块调入Cache, 再行写入。

不按写分配(绕写法)
写失效时,直接写入下一级存储器而不调块。

### 8. 写策略与调块

- ▶写回法:按写分配
- ▶写直达法:不按写分配

# 6.2 Cache技术

- (1) Cache技术的基础
  - 分级结构在性能和成本上取折中
  - 局部性原理locality: 程序的基本特性
- (2) Cache的基本结构
  - 原理、算法、平均访问时间
- (3) 地址映像与变换的方式与搜索
  - 相联方式: 全相联, 直接映像或者组相联
- (4) Cache数据的替换及更新
- (5) Cache是如何提高CPU性能的

### 6.2.6 Cache的性能分析

- 1. 失效率 (不命中率)
  - > 与硬件速度无关
  - ▶容易产生一些误导

### 2. 平均访存时间

平均访存时间 = 命中时间 + 失效率×失效开销

81

### 3.程序执行时间

CPU时间 = (CPU执行周期数+存储器停顿周期数)×时钟周期 其中:

- ▶ 存储器停顿时钟周期数 = "读"的次数×读失效率×读失效开销 + "写"的次数×写失效率×写失效开销
- ▶ 存储器停顿时钟周期数 = 访存次数×失效率×失效开销

$$CPU$$
时间= $IC \times \left( CPI_{execution} + \frac{存储器停顿周期数}{指令数} \right) \times$  时钟周期时间

例6.1用一个和Alpha AXP类似的机器作为第一个例子。假设Cache失效 开销为50个时钟周期,当不考虑存储器停顿时,所有指令的执行时 间都是2.0个时钟周期,访问Cache失效率为2%,平均每条指令访存 1.33次。试分析Cache对性能的影响。

#### 解:

CPU时间<sub>有cache</sub> = *IC* × (*CPI*execution + 每条指令的平均访存次数 × 不命中率×不命中开销) × 时钟周期时间 = IC × (2.0 + 1.33×2 %×50) × 时钟周期时间 = IC × 3.33× 时钟周期时间

例6.1用一个和Alpha AXP类似的机器作为第一个例子。假设Cache失效 开销为50个时钟周期,当不考虑存储器停顿时,所有指令的执行时 间都是2.0个时钟周期,访问Cache失效率为2%,平均每条指令访存 1.33次。试分析Cache对性能的影响。

#### 解:

▶ 考虑Cache的失效后,性能为:

实际 CPI: 3.33
 CPU时间也增加为原来的1.67倍。
 但若不采用Cache,则: CPI= 2.0 + 50×1.33 = 68.5

- 4. Cache失效对于一个CPI较小而时钟频率较高的CPU来说,影响是双重的:
  - ➤ CPI<sub>execution</sub>越低,固定周期数的Cache失效开销的相对影响就越大。
  - ➤ 在计算CPI时,失效开销的单位是时钟周期数。因此,即使两台计算机的存储系统完全相同,时钟频率较高的CPU的失效开销较大,其CPI中存储器停顿这部分也就较大。

Cache对于低CPI、高时钟频率的CPU来说更加重要!

85

例6.2 考虑两种不同组织结构的Cache: 直接映像Cache和2路组相联Cache, 试问它们对CPU的性能有何影响?

先求平均访存时间,然后再计算CPU性能。分析时请用以下假设:

- (1)理想Cache(命中率为100%)情况下的CPI为2.0,时钟周期为2ns,平均每条指令访存1.3次。
- (2)两种Cache容量均为64KB,块大小都是32字节。
- (3) 在组相联Cache中,必须增加一个多路选择器,用于根据标识匹配结果从相应组的块中选择所需的数据。因为CPU的速度直接与Cache命中的速度紧密相关,所以对于组相联Cache,由于多路选择器的存在而使CPU的时钟周期增加到原来的1.10倍。
- (4) 这两种结构Cache的失效开销都是70 ns。(在实际应用中,应取整为整数个时钟周期)35个时钟周期 x 2ns
- (5) 命中时间为1个时钟周期, 64 KB直接映像Cache的失效率为1.4%, 相同 容量的2路组相联Cache的失效率为1.0%。



解: 平均访存时间 = 命中时间 + 失效率×失效开销

因此,两种结构的平均访存时间分别是: 不命中率

平均访存时间<sub>1路</sub> =  $1 \times 2 + (0.014 \times 70) = 2.98$  ns

平均访存时间<sub>2路</sub> = 1×2×1.10 + (0.010×70) = 2.90 ns

两路组相联Cache的平均访存时间比较低。

CPU时间 = /C×(CP/execution + 每条指令的平均访存次数× 不命中率×不命中开销)× 时钟周期时间 = /C×(CP/execution× 时钟周期时间 + 每条指令的 平均访存次数×不命中率×不命中开销×时钟周期时间)

88

直接映像Cache的平均性能好一些。

### 6.2.7 改进Cache的性能

- 1. 平均访存时间 = 命中时间 + 失效率×失效开销
- 2. 可以从三个方面改进Cache的性能:
  - > 降低失效率
  - > 减少失效开销
  - ▶ 减少Cache命中时间
- 3. 下面介绍17种Cache优化技术
  - >8种用于降低失效率
  - > 5种用于减少失效开销
  - ▶ 4种用于减少命中时间

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache基本知识
- 6.3 降低Cache失效率



- 6.4 减少Cache失效开销
- 6.5 减少命中时间
- 6.6 主存

- 1. 增加Cache块大小
- 2. 增加Cache的容量
- 3. 提高相联度
- 4. 伪相联Cache
- 5. 硬件预取
- 6. 编译器控制的预取
- 7. 编译器优化
- 8. 牺牲Cache

## 三种类型的不命中/失效(3C)

- 强制性失效 (Compulsory miss)
  - ▶ 当第一次访问一个块时,该块不在Cache中,需从下一级 存储器中调入Cache。(冷启动失效,首次访问失效)
- 容量失效 (Capacity miss )
  - 如果程序执行时所需的块不能全部调入Cache中,则当某 些块被替换后,若又重新被访问,就会发生失效。
- 冲突失效 (Conflict miss)
  - 在组相联或直接映像Cache中,若太多的块映像到同一组 (块)中,则会出现该组中某个块被别的块替换,然后又被 重新访问的情况。(碰撞失效,干扰失效)

## 2. 三种失效所占的比例

> 绝对值



### ▶ 相对值



## • 可以看出:

- 相联度越高,冲突失效就越少;
- > 强制性失效和容量失效不受相联度的影响;
- ➤ 强制性失效不受Cache容量的影响,但容量失效随 着容量的增加而减少;

95

- 减少三种失效的方法
  - 强制性失效:增加块大小,预取(本身很少)
  - > 容量失效: 增加容量(抖动现象)
  - 冲突失效:提高相联度(理想情况:全相联)
- 许多降低失效率的方法会增加命中时间或失效 开销

## 增加Cache块大小

## 1. 失效率与块大小的关系

- ➤ 对于给定的Cache容量,当块大小增加时,失效率开始是下降,后来反而上升了。
- ▶ 原因:
  - 一方面它减少了强制性失效;
  - 另一方面,由于增加块大小会减少Cache中块的数目,所以有可能会增加冲突失效。

## 2. 增加块大小会增加不命中开销



### 各种块大小情况下Cache的失效率

| 块大小  | Cache容量(字节) |       |       |       |       |  |
|------|-------------|-------|-------|-------|-------|--|
| (字节) | 1K          | 4K    | 16K   | 64K   | 256K  |  |
| 16   | 15.05%      | 8.57% | 3.94% | 2.04% | 1.09% |  |
| 32   | 13.34%      | 7.24% | 2.87% | 1.35% | 0.70% |  |
| 64   | 13.76%      | 7.00% | 2.64% | 1.06% | 0.51% |  |
| 128  | 16.64%      | 7.78% | 2.77% | 1.02% | 0.49% |  |
| 256  | 22.01%      | 9.51% | 3.29% | 1.15% | 0.49% |  |

➤ Cache容量越大,使失效率达到最低的块大小就越大

### 2. 增加块大小会增加失效开销

例6.3: 假定存储系统在延迟40个时钟周期后,每2个时钟周期能送出16个字节。即:经过42个时钟周期,它可提供16个字节;经过44个时钟周期,可提供32个字节;依此类推。请问对于表6.6中列出的各种容量的Cache,在块大小分别为多少时,平均访存时间最小?(自学)

解: 平均访存时间 = 命中时间 + 失效率×失效开销

➤ 假设命中时间与块大小无关,为1个时钟周期,对16B块大小,容量为1KB的Cache:

平均访存时间=1+15.05%×42=7.321个时钟周期

对256B块大小,容量为256KB的Cache:

平均访存时间 = 1 + 0.49%×72=1.353个时钟周期

### 各种块大小情况下Cache的平均访存时间

| 块大小  | 失效开销   | Cache容量(字节) |       |       |       |       |  |
|------|--------|-------------|-------|-------|-------|-------|--|
| (字节) | (时钟周期) | 1K          | 4K    | 16K   | 64K   | 256K  |  |
| 16   | 42     | 7.321       | 4.599 | 2.655 | 1.857 | 1.458 |  |
| 32   | 44     | 6.870       | 4.186 | 2.263 | 1.857 | 1.308 |  |
| 64   | 48     | 7.605       | 4.360 | 2.267 | 1.594 | 1.245 |  |
| 128  | 56     | 10.318      | 5.357 | 2.551 | 1.509 | 1.274 |  |
| 256  | 72     | 16.847      | 7.847 | 3.369 | 1.571 | 1.353 |  |

- ✓ 1 KB、4 KB、16 KB Cache: 块大小=32 B
- ✓ 64 KB Cache: 块大小 = 128 B
- ✓ 256 KB Cache: 块大小 = 64 B

### 6.3 降低Cache失效率的方法 (2) 增加Cache容量

- 1. 最直接的方法是增加Cache的容量
  - ▶缺点:
    - 增加成本
    - 可能增加命中时间
- 2. 这种方法在片外Cache中用得比较多

### 6.3 降低Cache失效率的方法 (3) 提高相联度

- > 采用相联度超过8的方案的实际意义不大
  - 8路组相联的命中率与全相联的命中率差别不大
- ▶ 2:1 Cache经验规则
  - 容量为N的直接映像Cache的失效率和容量为N/2的2 路组相联Cache的失效率差不多相同
- > 提高相联度是以增加命中时间为代价
  - TTL或ECL板级Cache, 2路组相联: 增加10%
  - 定制的CMOS Cache, 2路组相联: 增加2%

### 1. 多路组相联的低失效率和直接映像的命中速度

|      | 优点    | 缺点    |  |  |
|------|-------|-------|--|--|
| 直接映像 | 命中时间小 | 失效率高  |  |  |
| 组相联  | 失效率低  | 命中时间大 |  |  |

### 2. 伪相联Cache的优点

- ▶命中时间小
- > 失效率低

演示

### 3. 基本思想及工作原理

在逻辑上把直接映像Cache的空间上下平分为两个区。对于任何一次访问,伪相联Cache先按直接映像Cache的方式去处理。

至CPU

- ▶ 若命中,则其访问过程与 直接映像Cache的情况一样
- 若不命中,则再到另一区相应的位置去查找:
  - 若找到,则发生了伪命中
  - 否则,就只好访问下一级 存储器。



### 4. 快速命中与慢速命中

> 要保证绝大多数命中都是快速命中



5. 缺点: 多种命中时间

例6.6 假设当在按直接映像找到的位置处没有发现匹配,而在另一个位置才找到数据(伪命中)需要2个额外的周期。仍用上个例子中的数据,问:当Cache容量分别为2 KB和128 KB时,直接映像、2路组相联和伪相联这三种组织结构中,哪一种速度最快?

#### 解: 首先考虑标准的平均访存时间公式:

(自学)

平均访存时间 $_{\text{伪相联}}$  = 命中时间 $_{\text{伪相联}}$  + 失效率 $_{\text{伪相联}}$  × 失效开销 $_{\text{伪相联}}$  由于: 失效率 $_{\text{伪相联}}$  = 失效率 $_{\text{2B}}$  命中时间 $_{\text{份相联}}$  = 命中时间 $_{\text{1B}}$  + 份命中率 $_{\text{份相联}}$  × 2

➤ 伪相联查找的命中率等于2路组相联Cache的命中率和直接映像Cache命中率之差。

#### 综合上述分析,有:

```
平均访存时间_{\text{어相联}} = 命中时间_{1B} + (失效率_{1B} - 失效率_{2B})×2 + 失效率_{2B}×失效开销_{1B}
```

#### 将前面表中的数据代入上面的公式,得:

```
平均访存时间<sub>伪相联, 2KB</sub>=1+ (0.098-0.076) ×2+ (0.076×50) = 4.844 平均访存时间<sub>伪相联, 128KB</sub>=1+ (0.010-0.007) ×2+ (0.007×50) = 1.356
```

#### 根据上一个例子中的表,对于2KB Cache,可得:

平均访存时间<sub>1路</sub> = 5.90 个时钟 平均访存时间<sub>2路</sub> = 4.90 个时钟

#### 对于128KB的Cache有,可得:

平均访存时间<sub>1路</sub> = 1.50 个时钟 平均访存时间<sub>2路</sub> = 1.45 个时钟

可见,对于这两种Cache容量,伪相联Cache都是速度最快的。

#### 6.3 降低Cache失效率的方法 (5) 硬件预取

- 1. 指令和数据都可以预取
- 2. 预取内容可放入Cache,或外缓冲器中(指令流缓冲器)
- 3. 指令预取通常由Cache之外的硬件完成
- 4. 预取效果
  - **▶** Jouppi的研究结果
    - 指令预取 (4 KB, 直接映像Cache, 块大小=16 B)
      - ✓1个块的指令流缓冲器: 捕获15%~25%的失效
      - ✓4个块的指令流缓冲器: 捕获50%
      - ✓16个块的指令流缓冲器:捕获72%
    - 数据预取 (4 KB,直接映像Cache)
      - ✓1个数据流缓冲器:捕获25%的失效
      - ✓ 还可以采用多个数据流缓冲器

## 6.3 降低Cache失效率的方法 (5) 硬件预取

- **▶** Palacharla和Kessler的研究结果
  - 流缓冲器: 既能预取指令又能预取数据
  - 对于两个64 KB四路组相联Cache来说:
    - ✓8个流缓冲器能捕获50%~70%的失效

▶ 预取应利用存储器的空闲带宽,不能影响对正常不命中的处理,否则可能会降低性能

#### 6.3 降低Cache失效率的方法 (5) 硬件预取

例6.7 Alpha AXP 21064采用指令预取技术,其实际失效率是多少?若不采用指令预取技术,Alpha AXP 21064的指令Cache必须为多大才能保持平均 访存时间不变? (自学)

解:假设当指令不在指令Cache里,而在预取缓冲器中找到时,需要多花一个时钟周期。修改后的公式:

假设预取命中率为25%,命中时间为2个时钟周期,失效开销为50个时钟周期。 查表可知8KB指令Cache的失效率为1.10%。则:

为了得到相同性能下的实际失效率,由原始公式得:

平均访存时间=命中时间+失效率×失效开销 失效率=(平均访存时间-命中时间)/失效开销=(2.415-2)/50=0.83 %

## 6.3 降低Cache失效率的方法 (6) 编译器控制的预取

在编译时加入预取指令,在数据被用到之前发出预取请求。

- 1. 预取有以下几种类型:
  - 寄存器预取: 把数据取到寄存器中
  - Cache预取: 只将数据取到Cache中

这两种预取可以是故障性的,也可以是非故障性:

- 故障性预取:在预取时,若出现虚地址故障或违反保护权限,就会发生异常
- 非故障性预取:在遇到这种情况时则不会发生异常,因 为这时它会放弃预取,转变为空操作

本节假定Cache预取都是非故障性的,也称非绑定预取。

## 6.3 降低Cache失效率的方法 (6) 编译器控制的预取

2. 在预取数据的同时,处理器应能继续执行。 非阻塞Cache (非锁定Cache): 只有这样,预取才有意义

编译器控制预取的目的
 使执行指令和读取数据能重叠执行。

## 4. 循环是预取优化的主要对象

- 失效开销小时:循环体展开1~2次
- 失效开销大时:循环体展开许多次

## 5. 每次预取需要花费一条指令的开销

- ▶ 保证这种开销不超过预取所带来的收益
- ▶编译器可以通过把重点放在那些可能会导致不命中的访问上, 使程序避免不必要的预取,从而较大程度地减少平均访存时间。

## ● 基本思想

在编译时,对程序中的指令和数据进行重新组织,通过对软件的优化降低Cache失效率。

McFaring 发现:

通过对指令进行重新排序,可有效地降低指令Cache的 失效率。

□ 2KB Cache: 降低50%

□ 8KB Cache: 降低75%

● 数据对存储位置的限制比指令的少,因此更便于优化。

- 程序代码和数据重组
  - > 可以重新组织程序而不影响程序的正确性
    - 把一个程序中的过程重新排序,就可能会减少冲 突不命中,从而降低指令不命中率。
      - ✓ McFarling研究了如何使用配置文件 (profile) 来进行这种优化。
    - 把基本块对齐,使得程序的入口点与Cache块的起始位置对齐,就可以减少顺序代码执行时所发生的Cache不命中的可能性(提高大Cache块的效率)

## ● 程序代码和数据重组

- 如果编译器知道一个分支指令很可能会成功转移,那么它就可以通过以下两步来改善空间局部性:
  - 将转移目标处的基本块和紧跟着该分支指令后的 基本块进行对调;
  - □ 把该分支指令换为操作语义相反的分支指令
- 数据对存储位置的限制更少,更便于调整顺序

- 通过把数据重新组织,使得一块数据在被从Cache替换出去之前,能最大限度利用其中的数据(访问次数最多)。
  - > 编译优化技术包括
    - (1) 数组合并:将本来相互独立的多个数组合并成为一个复合数组,以提高访问它们的局部性。
    - (2) 内外循环交换: 按数据在存储器中存储的顺序执行
    - (3) 循环融合:将若干个独立的循环融合为单个的循环。 这些循环访问同样的数组,对相同的数据作不同的运算。 这样使读入Cache的数据在被替换出去之前得到反复使用。
    - (4) 分块: 通过提高时间局部性减少不命中

- (1) 数组合并:通过提高空间局部性来减少失效次数
  - ▶ 举例:

```
/* 修改前 */
int val [SIZE];
int key [SIZE];
```

```
/* 修改后 */
struct merge {
int val;
int key;
};
struct merge merged_array [SIZE];
```

## (2) 内外循环交换

#### 举例:

```
/* 修改前 */
for (j=0; j<100; j=j+1)
for (i=0; i<5000; i=i+1)
x[i][j]=2*x[i][j];
```

代码以100个字 的步幅跳跃式浏 览存储器

```
/* 修改后 */
for (i=0; i<5000; i=i+1)
for (j=0; j<100; j=j+1)
x[i][j]=2*x[i][j];
```

代码在访问了一个缓存块中的所有字之后才进入下一个块

## (3) 循环融合

```
/* 修改前 */
for (i=0; i<N; i=i+1)
for (j=0; j<N; j=j+1)
a[i][j]=1/b[i][j]*c[i][j];
for (i=0; i<N; i=i+1)
for (j=0; j<N; j=j+1)
d[i][j]=a[i][j]+c[i][j];
```

```
/* 修改后 */
   for (i=0; i<N; i=i+1)
       for (j = 0; j < N; j = j + 1)
          a[i][j]=1/b[i][j]*c[i][j];
          d[i][j]=a[i][j]+c[i][j];
```

(4) 分块:通过提高时间局部性来减少失效次数,把对数组的整行或整列访问改为按块进行。

N阶矩阵乘法 x[i][j]=y[i][k]\*z[k][j]

```
/* 修改前 */
for (i=0; i< N; i=i+1)
   for (j=0; j<N; j=j+1)
     {r=0};
      for (k=0; k<N; k=k+1)
         r=r+y[i][k]*z[k][j];
      x[i][j]=r;
```

计算过程:

#### 数组乘法计算过程(分块前):以第2行为例,即i=1的情况



两个内部循环读取了数组 z 的全部 NxN个元素, 并反复读取数组 y 中的某一行中的N个元素, 所产生的N个结果被写入数组 x 的某一行。

#### 数组乘法计算过程(分块前):以第2行为例,即i=1的情况



最坏情况 $N^3$ 次操作 失效次数:  $2N^3 + N^2$ 

N<sup>2</sup> 是X的元素的总数目, 2N 是Y的一行元素的个数N + Z的一列的元素的个数N

```
/* 修改后 */
for (jj=0; jj<N; jj=jj+B)
 for (kk=0; kk<N; kk=kk+B)
  for (i=0; i< N; i=i+1)
   for (j=j; j< min (jj+B-1, N); j=j+1)
     {r=0;
      for (k=kk; k<min (kk+B-1, N); k=k+1)
        r=r+y[i][k]*z[k][j];
      x[i][j]=x[i][j]+r;
```

#### 计算过程:

## 数组乘法计算过程(分块后)



失效次数: 2N<sup>3</sup>/B+N<sup>2</sup>

分块因子: 改善因素

y 获益于空间局部性,

z 获益于时间局部性

#### 6.3 降低Cache失效率的方法 (8) 牺牲Cache

1. 一种能减少冲突不命中次数而又不影响时钟频率的方法。

#### 2. 基本思想

- ➤ 在Cache和它从下一级存储器调数据的通路之间设置 一个全相联的小Cache, 称为"牺牲"Cache (Victim Cache)。用于存放被替换出去的块(称为牺牲者), 以 备重用。
- > 工作过程

## 6.3 降低Cache失效率的方法 (8) Victim Cache

• Victim Cache在存储系统中的位置



#### 6.3 降低Cache失效率的方法 (8) Victim Cache

## 3. 作用

- ▶对于减小冲突失效很有效,特别是对于小容量的直接映像数据Cache,作用尤其明显。
- ➤ 例如: 项数为4的Victim Cache:

能使4 KB Cache的冲突失效减少20%~90%

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache技术
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间

- 1. 采用两级Cache
- 2. 让读失效优先于写
- 3. 写缓冲合并
- 4. 请求字处理技术
- 5. 非阻塞Cache技术

## 6.4 减少Cache失效开销

## 6.4.1 采用两级Cache

1. 应把Cache做得更快?还是更大?

答案: 二者兼顾。再增加一级Cache

- ➤ 第一级Cache(L1)小而快
- ➤ 第二级Cache(L2)容量大

#### 2. 性能分析

平均访存时间 = 命中时间 $_{L1}$  + 失效率 $_{L1}$ ×失效开销 $_{L1}$  失效开销 $_{L1}$  = 命中时间 $_{L2}$  + 失效率 $_{L2}$ ×失效开销 $_{L2}$  平均访存时间 = 命中时间 $_{L1}$  + 失效率 $_{L1}$ × (命中时间 $_{L2}$  + 失效率 $_{L2}$ ×失效开销 $_{L2}$ )

## 3. 局部失效率与全局失效率

- ➤ 局部失效率 = <u>该级Cache的失效次数</u> (失效率L2) 到达该级Cache的访问次数

平均访存时间 = 命中时间11 + 失效率11×命中时间12+

全局失效率L2

<u>失效率<sub>L1</sub>×失效率<sub>L2</sub>×失效开销</u><sub>L2</sub>

131

✓ 评价第二级Cache时,应使用全局失效率这个指标。 它指出了在CPU发出的访存中,究竟有多大比例是穿 过各级Cache,最终到达存储器的。

#### 例6.12考虑某一两级Cache:第一级Cache为L1,第二级Cache为L2

(1) 假设在1000次访存中,第一级Cache失效40次, 第二级Cache 失效20次。求该Cache系统的局部失效率和全局失效率各是多少?

#### 解: (1)

第一级Cache的失效率(全局和局部)是40/1000,即4%;

第二级Cache的局部失效率是20/40,即50%;

第二级Cache的全局失效率是20/1000,即2%。

(2) 假设L2的命中时间是10个时钟周期,L2的不命中开销是100时 钟周期,L1的命中时间是1个时钟周期,平均每条指令访存1.5次,不考虑写操作的影响。问:平均访存时间是多少?每条指令的平均停顿时间是多少个时钟周期?

解: 平均访存时间=命中时间 $_{L1}$ +不命中率 $_{L1}$ ×(命中时间 $_{L2}$ +不命中率 $_{L2}$ ×不命中开销 $_{L2}$ )=1+4%×(10+50%×100)=1+4%×60=3.4个时钟周期

由于每次访存的平均停顿时间为: 3.4-1.0=2.4 且平均每条指令访存1.5次:

每条指令的平均停顿时间=2.4×1.5=3.6个时钟周期

#### 4. 对于第二级Cache

- ➤ 在第二级Cache比第一级 Cache大得多的情况下,两级Cache的全局失效率和容量与第二级Cache相同的单级Cache的失效率非常接近。
- ▶ 在评价第二级Cache时,应用全局失效率这个指标, 局部失效率不是衡量第二级Cache的一个好指标
- 5. 第二级Cache不会影响CPU的时钟频率,因此其设计有更大的考虑空间。两个问题:
  - ➤ 它能否降低CPI中的平均访存时间部分?
  - 它的成本是多少?

平均访存时间=命中时间 $_{L1}$ +不命中率 $_{L1}$ ×(命中时间 $_{L2}$ +不命中率 $_{L2}$ ×不命中开销 $_{L2}$ )

#### 6. 第二级Cache的参数

- ▶ 容量: 第二级Cache的容量一般比第一级的大许多。 如512KB, 1024KB
- ►相联度: 第二级Cache可采用较高的相联度或伪相联方法。

#### 例6.13 给出有关第二级Cache的以下数据:

- (1) 对于直接映像,命中时间12=10个时钟周期
- (2) 2路组相联使命中时间增加0.1个时钟周期,即10.1个时钟周期
- (3) 对于直接映像,局部失效率12=25%
- (4) 对于2路组相联,局部失效率12=20%
- (5) 失效开销12=50个时钟周期

试问第二级Cache的相联度对失效开销的影响如何?

#### 解:

对一个直接映像的第二级Cache来说,第一级Cache的不命中开销为:不命中开销<sub>直接映像,L1</sub> =  $10 + 25\% \times 50 = 22.5$  个时钟周期

对于<mark>两路组相联</mark>第二级Cache来说,命中时间增加了10%(0.1)个时 钟周期,故第一级Cache的不命中开销为:

不命中开销<sub>两路组相联. L1</sub> = 10.1 + 20%×50 = 20.1 个时钟周期

把第二级Cache的命中时间取整,得10或11,则:

不命中开销<sub>两路组相联, L1</sub> = 10 + 20%×50 = 20.0 个时钟周期

不命中开销<sub>两路组相联, L1</sub> = 11 + 20%×50 = 21.0 个时钟周期

故对于第二级Cache来说,两路组相联优于直接映像

## ▶块大小

- 第二级Cache可采用较大的块 如64B、128B、256B
- 为减少平均访存时间,可以让容量较小的第一级 Cache采用较小的块,而让容量较大的第二级 Cache采用较大的块
- 需要考虑的另一个问题:

多级包容性:第一级Cache中的数据是否总是同时存在于第二级Cache中。

## 6.4 减少Cache失效开销

## 6.4.2 让读失效优先于写

● 提高写直达Cache性能的最重要方法是使用写缓冲区

- 1. Cache中的写缓冲器导致对存储器访问的复杂化
  - 在读不命中时,所读单元的最新值有可能还在写缓冲器中,尚未写入主存。

## 6.4 减少Cache失效开销 (2) 让读失效优先于写

- 2. 解决问题的方法(读失效的处理)
  - ▶ 推迟对读失效的处理,直至写缓冲器清空; (缺点:读失效的开销增加,如50%)
  - > 检查写缓冲器中的内容

3. 在写回法Cache中,也可采用写缓冲器。

## 6.4 减少Cache失效开销

## 6.4.3 写缓冲合并

- 1. 提高写缓冲器的效率
- 2. 写直达Cache: 依靠写缓冲来减少对下一级存储器写操作的时间
  - ▶如果写缓冲器为空,就把数据和相应地址写入该缓冲器。 从CPU的角度来看,该写操作就算完成了。
  - ▶如果写缓冲器中已有待写入的数据,把这次的写入地址与写缓冲器中已有的所有地址进行比较,看是否有匹配的项
    - 如果有地址匹配而对应的位置又是空闲的,就把这次要写入的数据与该项合并(写缓冲合并)
    - 如果写缓冲器满且又没有能进行写合并的项,就必须等待
    - 提高了写缓冲器的空间利用率,而且还能减少因写缓冲器满而要进行的等待时间。

## 6.4 减少Cache失效开销 (3) 写缓冲合并

| 写地址        | <u> </u> | V      |          | V      |          | V      |          | V   |          |
|------------|----------|--------|----------|--------|----------|--------|----------|-----|----------|
| 100        |          | 1      | Mem[100] | 0      |          | 0      |          | 0   |          |
| 108        |          | 1      | Mem[108] | 0      |          | 0      |          | 0   |          |
| 116        |          | 1      | Mem[116] | 0      |          | 0      |          | O   |          |
| 124        |          | 1      | Mem[124] | 0      |          | 0      |          | 0   |          |
| (a) 不采用写合并 |          |        |          |        |          |        |          |     |          |
|            |          |        |          |        |          |        |          |     |          |
| 写地址        | <u> </u> | V      |          | V      |          | V      |          | V   |          |
| 写地址        |          | V<br>1 | Mem[100] | V<br>1 | Mem[108] | V<br>1 | Mem[116] | V 1 | Mem[124] |
|            |          |        | Mem[100] |        | Mem[108] |        | Mem[116] |     | Mem[124] |
|            |          | 1      | Mem[100] | 1      | Mem[108] | 1      | Mem[116] | 1   | Mem[124] |
|            |          | 0      | Mem[100] | 0      | Mem[108] | 0      | Mem[116] | 0   | Mem[124] |

## 6.4 减少Cache失效开销

## 6.4.4 请求字处理技术

1. 请求字:存储器向CPU调入一个Cache块,其中CPU立即需要的一个字。

#### 2. 应尽早把请求字发送给CPU

CPU还是要等

- ▶ 尽早重启动: 调块时, 从块的起始位置开始读起。一旦请求字到达, 就立即发送给CPU, 让CPU继续执行。
- ▶ 请求字优先: 调块时, 从请求字所在的位置读起。这样, 第一个读出的字便是请求字。将之立即发送给CPU。

#### 3. 这种技术在以下情况下效果不大

- ➤ Cache块较小
- ➤ 下一条指令正好访问同一Cache块的另一部分

## 6.4 减少Cache失效开销

## 6.4.5 非阻塞Cache技术

- 1. 非阻塞Cache: Cache失效时仍允许CPU进行其他的命中 访问。即允许"失效下命中"。
- 2. 进一步提高性能:
  - ▶"多重失效下命中"
  - ▶"失效下失效"

存储器必须能够 处理多个失效

3. 重叠失效个数对平均访问时间的影响

可以同时处理的不命中次数越多,所能带来的性能上的提高就越大。(不命中次数越多越好?)

#### 6.4 减少Cache失效开销 (4) 非阻塞Cache技术

#### ▶模拟研究

数据Cache的平均存储器等待时间(以周期为单位)与阻塞 Cache平均存储器等待时间的比值

- □ 测试条件: 8K直接映像Cache, 块大小为32字节
- □ 测试程序: SPEC92 (14个浮点程序, 4个整数程序)
- □ 结果表明

在重叠不命中个数为1、2和64的情况下

浮点程序的平均比值分别为: 76%、51%和39%

整数程序的平均比值则分别为:81%、78%和78%

对于整数程序来说,重叠次数对性能提高影响不大,

简单的"一次不命中下命中"就几乎可以得到所有的好处。

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache基本知识
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间

- 1. 小容量简单Cache
- 2. 虚拟Cache
- 3. Cache访问流水化
- 4. Trace Cache

命中时间直接影响到处理器的时钟频率。在许多现代计算机中, 往往是Cache的访问时间限制了处理器的时钟频率。

### 6.6.1 容量小、结构简单的Cache

- 1. 硬件越简单,速度就越快。
- 2. 应使Cache足够小,以便与CPU一起放在同一块芯片上

某些设计采用了一种折中方案:把Cache的标识放在片内,而把Cache的数据存储器放在片外。

#### 6.5.2 虚拟Cache

- 1. 物理Cache: 使用物理地址的传统Cache
- 标识存储器中存放的是物理地址,进行地址检测也是用物理地址
- ➤ 缺点: 地址转换和访问Cache串行进行,访问速度很慢



#### 6.5.2 虚拟Cache

1. 物理Cache: 使用物理地址的传统Cache



2. 虚拟Cache:访问Cache的索引以及Cache中的标识都是虚拟地址(一部分)。



#### 6.5.2 虚拟Cache

- 2. 虚拟Cache:访问Cache的索引以及Cache中的标识都是虚拟地址
- ➤ 可以直接用虚拟地址进行访问的Cache
- ▶ 优点:在命中时不需要地址转换,省去了地址转换的时间。即使不命中,地址转换和访问Cache也是并行进行的,其速度比物理Cache快很多。



#### 6.5 减少命中时间(2)虚拟Cache

- 3. 并非都采用虚拟Cache (为什么?)
  - ▶ 虚拟Cache的清空问题
    - 解决方法: 在地址标识中增加PID字段(进程标识符)



3种方式虚拟地址Cache在不同容量下的不命中率

#### 6.5 减少命中时间(2)虚拟Cache

- ▶同义/别名: 同一个物理地址可能采用不同的虚地 址来访问
- ▶解决方法:
  - 反别名法: 用硬件保证每个Cache块有唯一的物理地址
  - 页着色: 要求别名的某些地址位相同。

#### 6.5 减少命中时间(2)虚拟Cache

#### 4. 虚拟索引+物理标识

- ➤ 优点: 兼得虚拟Cache和物理Cache的好处
- ➤ 局限性: Cache容量受到限制(页内位移) Cache容量≤页大小×相联度
- 5. 举例: IBM 3033的 Cache
  - ▶ 页大小 = 4KB 相联度 = 16

| 31   | 12 | 11  | 0        |
|------|----|-----|----------|
| 页地址  |    | 页内位 | <b>移</b> |
| 地址标识 |    | 索 引 | 块内位移     |

- ➤ Cache容量 = 16×4KB = 64KB
- 6. 另一种方法: 硬件散列变换

#### 6.5.3 Cache访问流水化

- 1. 对第一级Cache的访问按流水方式组织
- 2. 访问Cache需要多个时钟周期才可以完成 例如:
  - Pentium访问指令Cache需要1个时钟周期
  - Pentium Pro到Pentium III需要2个时钟周期
  - Pentium 4 则需要4个时钟周期

#### 6.5.4 Trace Cache

#### 1. 开发指令级并行性所遇到的一个挑战是:

▶ 当每个时钟周期流出超过4条指令时,要提供足够多条彼此互不相关的指令是很困难的

#### 2. 一个解决方法: 采用Trace Cache

➤ 存放CPU所执行的动态指令序列。包含由分支预测展开的 指令,该分支预测是否正确需要在取到该指令时进行确认

#### 3. 优缺点

- > 地址映像机制复杂。
- 相同的指令序列有可能被当作条件分支的不同选择而重复存放。
- ▶ 能够提高指令Cache的空间利用率。

#### 6.5.5 Cache优化技术总结

●"+"号:表示改进了相应指标

●"-"号:表示它使该指标变差

●空格栏:表示它对该指标无影响

●复杂性: 0表示最容易,3表示最复杂

### Cache优化技术总结

| 优化技术          | 失效<br>率 | 失效<br>开销 | 命中<br>时间 | 硬件<br>复杂度 | 说 明                                                     |
|---------------|---------|----------|----------|-----------|---------------------------------------------------------|
| 增加块大小         | +       | -        |          | 0         | <mark>实现容易;Pentium 4 的</mark><br>第二级Cache采用了128 B<br>的块 |
| 增加Cache容量     | +       |          | -        | 1         | 被广泛采用,特别是第二<br>级Cache                                   |
| 提高相联度         | +       |          | _        | 1         | 被广泛采用                                                   |
| Victim Cache  | +       | +        |          | 2         | AMD Athlon采用了8个项<br>的Victim Cache                       |
| 伪相联Cache      | +       |          |          | 2         | MIPS R10000的第二级<br>Cache采用                              |
| 硬件预取指令<br>和数据 | +       | +        |          | 2~3       | 许多机器预取指令,<br>UltraSPARC III 预取数据                        |

| 优化技术                 | 失效<br>率 | 失效<br>开销 | 命中<br>时间 | 硬件<br>复杂度 | 说 明                                                   |
|----------------------|---------|----------|----------|-----------|-------------------------------------------------------|
| 编译器控制<br>的预取         | +       | +        |          | 3         | 需同时采用非阻塞Cache;<br>有几种微处理器提供了对<br>这种预取的支持              |
| 用编译技术减少<br>Cache失效次数 | +       |          |          | 0         | 向软件提出了新要求;有<br>些机器提供了编译器选项                            |
| 使读失效<br>优先于写         |         | +        |          | 1         | 在单处理机上实现容易,<br>被广泛采用                                  |
| 写缓冲归并                |         | +        |          | 1         | 与写直达合用,广 <mark>泛应用,</mark><br>例如21164,UltraSPARC<br>Ⅲ |
| 尽早重启动<br>和关键字优先      |         | +        |          | 2         | 被广泛采用                                                 |
| 非阻塞Cache             |         | +        |          | 3         | 在支持乱序执行的CPU中<br>使用                                    |

| 优化技术                        | 失效<br>率 | 失效<br>开销 | 命中<br>时间 | 硬件<br>复杂度 | 说 明                                                                      |
|-----------------------------|---------|----------|----------|-----------|--------------------------------------------------------------------------|
| 两级Cache                     |         | +        |          | 2         | 硬件代价大;两级Cache的块大小不同时实现困难;被广泛采用                                           |
| 容量小且结构<br>简单的Cache          | -       |          | +        | 0         | 实现容易,被广泛采用                                                               |
| 对Cache进行索<br>引时不必进行<br>地址变换 |         |          | +        | 2         | 对于小容量Cache来说 <mark>实</mark><br>现容易,已被Alpha<br>21164和UltraSPARC III采<br>用 |
| 流水化Cache<br>访问              |         |          | +        | 1         | 被广泛采用                                                                    |
| Trace Cache                 |         |          | +        | 3         | Pentium 4 采用                                                             |

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.4 减少Cache失效开销

6.2 Cache基本知识

6.5 减少命中时间

6.3 降低Cache失效率

● 课本作业:

7.6, 7.8, 7.10, 7.12, 7.14, 7.16

# 第6章 存储系统

- 6.1 存储系统的层次结构
- 6.2 Cache基本知识
- 6.3 降低Cache失效率
- 6.4 减少Cache失效开销
- 6.5 减少命中时间
- 6.6 并行主存系统
- 6.7 虚拟存储器



6.8 实例: AMD Opteron的存储器层次结构

- > 主存的主要性能指标:延迟和带宽
- ▶ 以往: Cache主要关心延迟, I/O主要关心带宽。
- ▶ 现在: Cache关心两者
- 并行主存系统是在一个访存周期内能并行访问多个存储字的存储器。
  - 能有效地提高存储器的带宽。

- > 一个单体单字宽的存储器
  - □ 字长与CPU的字长相同
  - □ 每一次只能访问一个存储字。 假设该存储器的访问周期是 T<sub>M</sub>,字长为W位,则其带宽 为:

$$B_M = \frac{W}{T_M}$$



普通存储器

- ightharpoonup 在相同的器件条件(即 $T_M$ 相同)下,可以采用两种并行存储器结构来提高主存的带宽:
  - □ 单体多字存储器
  - □ 多体交叉存储器

### 6.6.1 单体多字存储器

一个单体m字(这里m=4)存储器



## 6.6.1 单体多字存储器

➤ 存储器能够每个存储周期读出m个CPU字。因此 其最大带宽提高到原来的m倍。

$$B_{M} = m \times \frac{W}{T_{M}}$$

单体多字存储器的实际带宽比最大带宽小

优点: 实现简单

缺点: 访存效率不高

### 6.6.1 单体多字存储器

#### 原因:

- □ 如果一次读取的m个指令字中有分支指令,而且分 支成功,那么该分支指令之后的指令是无用的。
- □ 一次取出的m个数据不一定都是有用的。另一方面, 当前执行指令所需要的多个操作数也不一定正好 都存放在同一个长存储字中。
- □写入有可能变得复杂。
- 当要读出的数据字和要写入的数据字处于同一个 长存储字内时,读和写的操作就无法在同一个存 储周期内完成。

#### 6.6.2 多体交叉存储器

由多个单字存储体构成,每个体都有自己的地址寄存器以及地址译码和读/写驱动等电路。

- 问题:对多体存储器如何进行编址?
  - ▶ 存储器是按顺序线性编址的,如何在二维矩阵和线性地址之间建立对应关系?
  - > 两种编址方法
    - □ 高位交叉编址
    - □ 低位交叉编址 (有效地解决访问冲突问题)



多体(m=4)交叉存储器

#### (1) 高位交叉编址

- 对存储单元矩阵按列优先的方式进行编址
- 特点: 同一个体中的高log<sub>2</sub>m位都是相同的 (体号)



处于第 i 行第 j 列的单元,即体号为 j、体内地址为 i 的单元,其线性地址为:

$$A=j\times n+i$$
  
其中:  $j=0$ , 1, 2, ...,  $m-1$   
 $i=0$ , 1, 2, ...,  $n-1$ 

ightharpoonup 一个单元的线性地址为A,则其体号j和体内地址 i 为:

$$j = \left| \frac{A}{n} \right|$$
  $i = A \mod n$ 

➤ 把A表示为二进制数,则其高log<sub>2</sub>m位就是体号,而剩下的部分就是体内地址。



#### (2) 低位交叉编址

- 对存储单元矩阵按行优先进行编址
- 特点: 同一个体中的低log<sub>2</sub>m位都是相同的 (体号)



处于第i行第j列的单元,即体号为j、体内地址为i的单元,其线性地址为:

$$A=i \times m+j$$
  
其中:  $i=0$ , 1, 2, ...,  $n-1$   
 $j=0$ , 1, 2, ...,  $m-1$ 

一个单元的线性地址为A,则其体号j和体内地址i 为:

$$i = \left| \frac{A}{m} \right|$$
 j=A mod m

▶ 把A表示为二进制数,则其低log₂m位就是体号, 而剩下的部分就是体内地址。



▶ 例:采用低位交叉编址的存储器

|   | 数据寄存器       |                 |          |          |          |          |    |          |  |  |  |
|---|-------------|-----------------|----------|----------|----------|----------|----|----------|--|--|--|
| ' | 1           | <b>V</b>        | <u> </u> | <b>—</b> | <b>—</b> | <b>1</b> |    | <b>V</b> |  |  |  |
|   | 0           | 1               | 2        | 3        | 4        | 5        | 6  | 7        |  |  |  |
|   | 8           | 9               | 10       | 11       | 12       | 13       | 14 | 15       |  |  |  |
| - | 16          | 17              | 18       | 19       | 20       | 21       | 22 | 23       |  |  |  |
|   | 24          | 25              | 26       | 27       | 28       | 29       | 30 | 31       |  |  |  |
|   | 32          | 33              | 34       | 35       | 36       | 37       | 38 | 39       |  |  |  |
|   | 40          | 41              | 42       | 43       | 44       | 45       | 46 | 47       |  |  |  |
|   | 48          | 49              | 50       | 51       | 52       | 53       | 54 | 55       |  |  |  |
|   | 56          | 57              | 58       | 59       | 60       | 61       | 62 | 63       |  |  |  |
|   |             |                 |          |          |          |          |    |          |  |  |  |
|   |             | 体内地址(3位) 体号(3位) |          |          |          |          |    |          |  |  |  |
|   | 地址寄存器(线性地址) |                 |          |          |          |          |    |          |  |  |  |

由8个存储体构成、 总容量为64,格子中 的编号为线性地址。

增加m的值就能够提高主存储器的带宽。但是,由于存在访问冲突,实际加速比小于m。

- > 为了提高主存的带宽,需要多个或所有存储体能并行工作
  - □ 在每一个存储周期内,分时启动m个存储体。
  - □ 如果每个存储体的访问周期是 $T_M$ ,则各存储体的启动间隔为:  $t=T_M/m$ 。



#### (3) 通过一个模型分析并行主存系统的实际带宽

- ➤ 一个由m个独立分体组成的主存系统
- ightharpoonup CPU发出的一串地址为 $A_1$ ,  $A_2$ , ...,  $A_q$ 的访存申请队列
- ightharpoonup 存储控制器扫描这个队列,并截取从头起的 $A_1$ , $A_2$ ,…,  $A_k$ 序列作为申请序列。
  - 申请序列是满足以下条件的最长序列:k个地址所访问的存储器单元都处在不同的分体中。
  - □ A1~Ak不一定是顺序地址,只要它们之间不出现分体冲突。
  - □ k越接近于m,系统的效率就越高。

▶ 设P(k)表示申请序列长度为k的概率,用B表示k的平均值, 则

$$B = \sum_{k=1}^{m} k \bullet P(k)$$

其中: k=1, 2, ..., m

每个主存周期所能访问到的字数的平均值,正比于主存 实际带宽。

- ightharpoonup P(k)与具体程序的运行状况密切相关。如果访存申请队列都是指令的话,那么影响最大的是转移概率  $\lambda$ 。
- 转移概率λ: 给定指令的下条指令地址为非顺序地址的概率。
  - □当k=1时,所表示的情况是:第一条就是转移指令且 转移成功。

$$P(1) = \lambda = (1-\lambda)^{0} \cdot \lambda$$

□当k=2时,所表示的情况是:第一条指令没有转移 (其概率为1-λ),第二条是转移指令且转移成功。 所以有:

$$P(2) = (1-\lambda)^{-1}\lambda$$

- □ 同理,  $P(3) = (1-\lambda)^{2} \cdot \lambda$
- □ 依此类推, $P(k) = (1-\lambda)^{k-1} \cdot \lambda$ 其中:  $1 \le k \le m$
- □ 如果前m-1条指令均不转移,则不管第m条指令是 否转移,k都等于m,因此有:

$$P(m) = (1-\lambda)^{m-1}$$

$$B = \sum_{k=1}^{m} k \bullet P(k) = 1 \bullet \lambda + 2 \bullet (1-\lambda) \bullet \lambda + 3 \bullet (1-\lambda)^{2} \bullet \lambda + \dots + (m-1)(1-\lambda)^{m-2} \bullet \lambda + m(1-\lambda)^{m-1}$$

$$B = \sum_{i=0}^{m-1} (1 - \lambda)^{i}$$

$$B = \frac{1 - (1 - \lambda)^{m}}{\lambda}$$

# 6.6.2 多体交叉存储器

» m 等于4、8、16时, B 与 λ 的关系曲线



# 6.6.2 多体交叉存储器

- □ 对于数据来说,由于其顺序性差,m值的增大给B 带来的好处就更差一些。
  - 若机器主要是运行标量运算的程序,一般取m≤8。
  - 如果是向量处理机,其m值可以取大些。
- 单纯靠增大m来提高并行主存系统的带宽是有限的, 而且性能价格比还会随m的增大而下降。

#### 原因:

- 程序的转移概率不会很低
- 数据分布的离散性较大

# 6.6 并行主存系统

- 6.6.3 避免存储体冲突
- 体冲突: 两个请求要访问同一个体。
- 减少体冲突次数的一种方法: 采用许多体例如, NEC SX/3最多可使用128个体

## 6.6.3 避免存储体冲突

#### ● 这种方法存在问题:

假如我们有128个存储体,按字交叉方式工作,并执行以下程序:

```
int x [ 256 ][ 512 ];
for ( j = 0;    j < 512;    j = j+1 )
for ( i = 0;    i < 256;    i = i+1 )
    x [ i ][ j ] = 2 * x [ i ][ j ];</pre>
```

因为512是128的整数倍,同一列中的所有元素都在同一个体内,无论CPU或存储系统多么高级,该程序都会在数据Cache不命中时暂停。

# 6.6.3 避免存储体冲突

- 解决体冲突的方法
  - **软件方法**(编译器)
    - □ 循环交换优化
  - □ 扩展数组的大小,使之不是2的幂。
  - > 硬件方法
  - □ 使体数为素数 体内地址=地址A mod (存储体中的字数) 可以直接截取
  - □ 举例

# 6.6.3 避免存储体冲突

#### 顺序交叉和取模交叉的地址映象举例

|      |          |    | 存  | 诸体 |    |    |
|------|----------|----|----|----|----|----|
| 体内地址 | 顺序交叉取模交叉 |    |    |    |    |    |
|      | 0        | 1  | 2  | 0  | 1  | 2  |
| 0    | 0        | 1  | 2  | 0  | 16 | 8  |
| 1    | 3        | 4  | 5  | 9  | 1  | 17 |
| 2    | 6        | 7  | 8  | 18 | 10 | 2  |
| 3    | 9        | 10 | 11 | 3  | 19 | 11 |
| 4    | 12       | 13 | 14 | 12 | 4  | 20 |
| 5    | 15       | 16 | 17 | 21 | 13 | 5  |
| 6    | 18       | 19 | 20 | 6  | 22 | 14 |
| 7    | 21       | 22 | 23 | 15 | 7  | 23 |

# 6.7 虚拟存储器

#### 6.7.1 虚拟存储器的基本原理

- 虚拟存储器是"主存—辅存"层次进一步发展的结果。
- 虚拟存储器可以分为两类: 页式和段式
  - 页式虚拟存储器把空间划分为大小相同的块。

(页面)

段式虚拟存储器则把空间划分为可变长的块。

(段)

页面是对空间的机械划分,而段则往往是按程序的逻辑意义进行划分。

## 6.7.1 虚拟存储器的基本原理

#### ● Cache和虚拟存储器的参数取值范围

| 参数       | 第一级Cache                 | 虚拟存储器                     |  |
|----------|--------------------------|---------------------------|--|
| 块 (页) 大小 | 16-128字节                 | 4096-65, 536字节            |  |
| 命中时间     | 1-3个时钟周期                 | 100-200个时钟周期              |  |
| 不命中开销    | 8-200个时钟周期               | 1,000,000-10,000,000个时钟周期 |  |
| (访问时间)   | (6-160个时钟周期)             | (800,000-8,000,000个时钟周期)  |  |
| (传输时间)   | (2-40个时钟周期)              | (200,000-2,000,000个时钟周期)  |  |
| 不命中率     | 0. 1-10%                 | 0. 00001-0. 001%          |  |
| 地址映象     | 25-45位物理地址到14-20位Cache地址 | 32-64位虚拟地址到25-45位物理地址     |  |

# 6.7 虚拟存储器

#### 6.7.2 快速地址转换技术

- 1. 地址变换缓冲器TLB
  - ➤ TLB是一个专用的高速缓冲器,用于存放近期经常使用的页表项:
  - ➤ TLB中的内容是页表部分内容的一个副本;
  - ➤ TLB也利用了局部性原理。
- 2. TLB中的项由两部分构成:标识和数据
  - 标识中存放的是虚地址的一部分。
  - 数据部分中存放的则是物理页帧号、有效位、存储保护信息、使用位、修改位等。

## 6.7.2 快速地址转换技术

- 3. AMD Opteron的数据TLB的组织结构
  - ▶ 包含40个项
  - > 采用全相联映象
  - AMD Opteron的地址转换过程
- 4. 一般TLB比Cache的标识存储器更小、更快。

保证TLB的读出操作不会使Cache的命中时间延长。

# 6.7.2 快速地址转换技术



# 6.7 虚拟存储器

6.7.3 页式虚拟存储器实例:

64位0pteron的存储管理

- 1. Opteron的页面大小: 4KB, 2MB和4MB。
- 2. AMD64系统结构

虚拟地址: 64位 物理地址: 52位

- ▶ 进行虚→实地址转换时,是把64位的虚拟地址映射到52位的物理地址。
- 要求: 64位虚拟地址中的高16位是由低48位进行符号位扩展而来的

规范格式

- 3. 采用多级分层页表结构来映射地址空间,以便使页表 大小合适。
  - 分级的级数取决于虚拟地址空间的大小
  - ➤ Opteron的48位虚拟地址的4级转换
  - ▶ 每个分级页表的偏移量分别来自4个9位的字段
- 4. Opteron的每一级页表都采用64位的项 其中:
  - ▶ 前12位留给将来使用
  - ▶ 随后的52位是物理页号



▶最后的12位包括保护和使用信息。

不同级的页表中有所不同,但大都包含以下基本字段:

- □ 存在位: 说明该页面在存储器中。
- □ 读/写位: 说明该页面是只读还是可读写。
- 用户/管理位: 说明用户是否能访问此页或只能由上面的3个特权级所访问。
- □ 修改位: 说明该页面已被修改过。
- □ 访问位: 说明自上次该位被清0后到现在,该页面是 否被读或写过。
- □ 页面大小:说明最后一级页面是4KB还是4MB;如果 是4MB,则Opteron仅使用三级页表而非四级。

- 非执行位:在有些页面中用来阻止代码的执行。
- □ 页级Cache使能:说明该页面能否进入Cache。
- □ 页级写直达:说明该页是允许对数据Cache进行写回 还是写直达。
- 5. Opteron通常在TLB不命中时要遍历所有四级页表,故有3个位置可以进行保护限制的检查。
  - ➤ 仅遵从底层的PTE, 而在其他级上只需确认有效 位是有效的即可。
- 6. 在保护方面,如何避免用户进行非法的地址转换?
  - 页表本身已经被保护,用户程序无法对它们进行 写操作。

- 操作系统通过控制页表项来控制哪些物理地址可以被访问,哪些不能访问。
- 多个进程共享存储器是通过使各自的地址空间中的一个页表项指向同一个物理页面来实现的。
- 7. Opteron使用4个TLB以减少地址转换时间
  - 两个用于访问指令,两个用于访问数据。
- 8. 和多级Cache类似, Opteron通过采用两个更大的第二级TLB来减少TLB不命中。
  - 一个用于访问指令
  - > 另一个用于访问数据

> Opteron中第一级和第二级指令、数据TLB的参数

| 参数       | 描述                                              |
|----------|-------------------------------------------------|
| 块大小      | 1个 PTE(8字节)                                     |
| L1命中时间   | 1个时钟周期                                          |
| L2命中时间   | 7个时钟周期                                          |
| L1 TLB大小 | 指令和数据TLB都是40个PTE,其中32个用于4KB大小的页面,8个用于2MB或4MB页面。 |
| L2 TLB大小 | 指令和数据TLB都是512个PTE,用于4KB页面                       |
| 块选择      | LRU                                             |
| L1映象规则   | 全相联                                             |
| L2映象规则   | 4路组相联                                           |

# 6.8 实例: AMD Opteron的存储器层次结构

- 一个乱序执行处理器
  - □ 每个时钟周期最多可以取出3条80x86指令,并 将之转换成类RISC操作,然后以每个时钟周期3 个操作的速率流出。
- ▶ 有11个并行的执行部件
- ➤ 在2006年,其12级定点流水线使得该处理器的最高时钟频率达到了2.8GHz。
- ▶ 虚地址: 48位
- ▶ 物理地址: 40位

通过两级TLB实现的从虚拟地址到物理地址的转换以及对两级数据Cache的访问情况



# AMD Opteron 存储器 层次结构图

